2 research outputs found

    Text recognition and 2D/3D object tracking

    Get PDF
    Orientadores: Jorge Stolfi, Neucimar Jerônimo LeiteTese (doutorado) - Universidade Estadual de Campinas, Instituto de ComputaçãoResumo: Nesta tese abordamos três problemas de visão computacional: (1) detecção e reconhecimento de objetos de texto planos em imagens de cenas reais; (2) rastreamento destes objetos de texto em vídeos digitais; e (3) o rastreamento de um objeto tridimensional rígido arbitrário com marcas conhecidas em um vídeo digital. Nós desenvolvemos, para cada um dos problemas, algoritmos inovadores, que são pelo menos tão precisos e robustos quanto outros algoritmos estado-da-arte. Especificamente, para reconhecimento de texto nós desenvolvemos (e validamos extensivamente) um novo descritor de imagem baseado em HOG especializado para escrita romana, que denominamos T-HOG, e mostramos sua contribuição como um filtro em um detector de texto (SNOOPERTEXT). Nós também melhoramos o algoritmo SNOOPERTEXT através do uso da técnica multiescala para tratar caracteres de tamanhos bastante variados e limitar a sensibilidade do algoritmo a vários artefatos. Para rastreamento de texto, nós descrevemos quatro estratégias básicas para combinar a detecção e o rastreamento de texto, e desenvolvemos também um rastreador específico baseado em filtro de partículas que explora o uso do reconhecedor T-HOG. Para o rastreamento de objetos rígidos, nós desenvolvemos um novo algoritmo preciso e robusto (AFFTRACK) que combina rastreamento de características por KLT com uma calibração de câmera melhorada. Nós testamos extensivamente nossos algoritmos com diversas bases de dados descritas na literatura. Nós também desenvolvemos algumas bases de dados (publicamente disponíveis) para a validação de algoritmos de detecção e rastreamento de texto e de rastreamento de objetos rígidos em vídeosAbstract: In this thesis we address three computer vision problems: (1) the detection and recognition of flat text objects in images of real scenes; (2) the tracking of such text objects in a digital video; and (3) the tracking an arbitrary three-dimensional rigid object with known markings in a digital video. For each problem we developed innovative algorithms, which are at least as accurate and robust as other state-of-the-art algorithms. Specifically, for text classification we developed (and extensively evaluated) a new HOG-based descriptor specialized for Roman script, which we call T-HOG, and showed its value as a post-filter for an existing text detector (SNOOPERTEXT). We also improved the SNOOPERTEXT algorithm by using the multi-scale technique to handle widely different letter sizes while limiting the sensitivity of the algorithm to various artifacts. For text tracking, we describe four basic ways of combining a text detector and a text tracker, and we developed a specific tracker based on a particle-filter which exploits the T-HOG recognizer. For rigid object tracking we developed a new accurate and robust algorithm (AFFTRACK) that combines the KLT feature tracker with an improved camera calibration procedure. We extensively tested our algorithms on several benchmarks well-known in the literature. We also created benchmarks (publicly available) for the evaluation of text detection and tracking and rigid object tracking algorithmsDoutoradoCiência da ComputaçãoDoutor em Ciência da Computaçã

    Robust detection of camera motion by weighted optical flow analysis

    Get PDF
    Orientadores: Neucimar Jeronimo Leite, Jorge StolfiDissertação (mestrado) - Universidade Estadual de Campinas, Instituto de ComputaçãoResumo: Nosso objetivo nesta dissertação é a detecção robusta de movimento de câmera (tilt, pan, roll e zoom) em vídeos. Para tanto, desenvolvemos um algoritmo original para esta tarefa, baseado em um ajuste ponderado de mínimos quadrados de um fluxo ótico, onde um procedimento iterativo é utilizado para melhorar o peso de cada vetor. Além da detecção de movimento de câmera, nosso algoritmo fornece uma análise quantitativa precisa e confiável dos movimentos. Este também fornece uma segmentação grosseira de cada quadro em duas regiões, "objeto" e "fundo", correspondentes às partes estacionárias e com movimento na cena, respectivamente. Experimentos com vídeos reais mostram que o algoritmo é rápido e eficaz, mesmo para cenas com movimento substancial de objetosAbstract: Our goal in this dissertation is the reliable detection of camera motion (tilt, pan, roll and zoom) in videos. We propose an original algorithm for this task based on weighted leastsquare fitting of the optical flow, where an iterative procedure is used to improve the weight of each flow vector. Besides detecting camera motion, our algorithm provides a precise and reliable quantitative analysis of the movements. It also provides a rough segmentation of each frame into two regions, "foreground" and "background", corresponding to the moving and stationary parts of the scene, respectively. Tests with real videos show that the algorithm is fast and effective, even for scenes with substantial object motionMestradoProcessamento de ImagensMestre em Ciência da Computaçã
    corecore